
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型
10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型在InternVL-2.5上实现10倍吞吐量提升,模型性能几乎无损失。
来自主题: AI技术研报
6073 点击 2025-04-03 16:12
在InternVL-2.5上实现10倍吞吐量提升,模型性能几乎无损失。
KV Cache 是大模型推理性能优化的一个常用技术,该技术可以在不影响任何计算精度的前提下,通过空间换时间的思想,提高推理性能。